搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

多智能体协同自主进化渗透测试系统：基于XBOW Benchmarks的量化评估与实践
undefined配套自动化评估系统，基于XBOW Validation Benchmarks数据集（来源：NeuroSploit开源项目），实现多维度评估、可扩展至其他数据集、无限次本地离线演练（零成本量化应用效果与业务价值系统经XBOW Benchmarks验证（104个环境，含简单45、中等51、困难8），关键指标如下：漏洞利用成功率：经迭代从50%降至39.4%，最终提升至58.2%（来源漏洞覆盖：XBOW Benchmarks中漏洞类型分布为A03注入59、A01访问控制29、A05配置错误18等；OWASP Top 10中XSS(23)、默认密码(18)、越权(15)占比最高（来源： XBOW Validation Benchmarks Statistics）。开源赋能：发布评估系统（GitHub: https://github.com/Neuro-Sploit/xbow-validation-benchmarks）、修复XBOW Benchmark上游遗留问题
23820编辑于 2026-04-06
多智能体协同自主进化渗透测试系统：提升漏洞挖掘效率与自优化能力
量化验证系统效能与业务价值基于XBOW Validation Benchmarks数据集（来源：文中“XBOW Validation Benchmarks 数据集分析”）的实践显示：数据集规模：含104个环境（简单45、中等51、困难8），覆盖注入型、访问控制漏洞（XSS 23例、默认密码18例、越权15例占比最高），较少涉及密码学错误、SSRF（来源：“XBOW Benchmarks 包含开源与标准化：基于SKILL.md+MCP规范开放技能接口，支持快速扩展；开源评估系统与数据集（XBOW Validation Benchmarks）推动行业基线统一（来源：“所有技能和MCP 都支持快速扩展 ”“开源地址：https://github.com/Neuro-Sploit/xbow-validation-benchmarks”）。（数据来源：XBOW Validation Benchmarks数据集、NeuroSploit战队实践报告、腾讯云黑富松智能渗透挑战赛公开资料）
18520编辑于 2026-04-06
多智能体协同自主进化渗透系统：基于XBOW基准的量化评估与实践
评估标准化：基于XBOW Validation Benchmarks数据集（含104个环境，分简单45、中等51、困难8）实现多维度评估（来源：材料“XBOW Validation Benchmarks 比赛应用：参与腾讯云黑富松智能渗透挑战赛，使用PentestSkills系统：基于XBOW数据集评估，映射漏洞至OWASP TOP 10，涉及最多漏洞类型为注入型（59）、访问控制（29）、安全配置错误 undefined开源成果：发布基于XBOW Benchmark的全自动AI Agent评估系统（开源地址：https://github.com/Neuro-Sploit/tencent-cloud-hackathon-intelligent-pentest-competition-evaluation ）、**XBOW Validation Benchmarks数据集（修复上游遗留问题，地址：https://github.com/Neuro-Sploit/xbow-validation-benchmarks 数据与生态支撑：依托XBOW Validation Benchmarks数据集（104环境、多难度分级）建立评估基线，提供CTF平台API/MCP接口支持大模型参赛（来源：材料“修正评估基准 (XBOW
16810编辑于 2026-04-05
来自专栏ADAS性能优化
Misunderstood Benchmarks Are Hurting The Industry and Consumers
The reason that people use inaccurate benchmarks is because these benchmarks make it really easy to simply These benchmarks are known as synthetic benchmarks. Reviews using balanced benchmarks Although there are plenty of reviewers out there using benchmarks in reviewers that use good benchmarks, we also have reviewers that simply don’t use benchmarks at all. That means benchmarks that: utilize real game engines for their 3D benchmarks, like 3DMark benchmarks
51420编辑于 2022-05-13
来自专栏爱生活爱编程
【PaperReading】Tools and Benchmarks for Automated Log Parsing
Tools and Benchmarks for Automated Log Parsing 自动日志分析的工具和基准 Jieming Zhu① , Shilin He② , Jinyang Liu③
1.3K21发布于 2021-01-14
多智能体协同渗透测试系统将漏洞挖掘成功率提升至58.2%
开发基于XBOW Benchmark的全自动评估系统团队开源了自动化AI智能体评估系统，该系统具备多维度评估能力：漏洞利用成功率：精准测量攻击有效性全链路攻击耗时：量化响应效率 Token消耗分析项目修复了上游官方XBOW Benchmark仓库的多个遗留问题，并开发了与比赛平台API完全兼容的本地接口。腾讯云平台支撑智能攻防技术突破腾讯云黑盲松竞赛平台提供： XBOW Benchmark数据集：104个漏洞环境，覆盖简单(45)、中等(51)、困难(8)三种难度漏洞类型分布：XSS(23)、默认密码数据来源：NeuroSploit战队开源项目（GitHub）、XBOW Validation Benchmarks统计平台、腾讯云黑盲松智能渗透挑战赛官方数据
20820编辑于 2026-04-04
来自专栏云原生生态圈
遵循CIS Docker Benchmarks规范的开源巡检脚本(内附CIS Docker Benchmarks PDF下载)
CIS[1]即Center for Internet Security (CIS) 为安全基准计划提供了定义明确、公正、基于一致性的行业最佳实践来帮助组织评估和增强其安全性
1.6K10发布于 2021-09-24
来自专栏运维专栏
Cluster Setup - CIS Benchmarks（集群设置-CIS基线）
关于 CIS Benchmarks CIS Benchmarks -Default k8s security rules 默认的kubernets的安全准则无论是原生还是通过谷歌或者亚马逊云的定制化 3.1 CSI Benchmarks 详见https://learn.cisecurity.org/benchmarks 最新版本CIS_Kuberntets_Benchmark_v1.6.0.pdf
1.6K22发布于 2021-03-13
来自专栏Reinvent Data Science
Chat with Milvus #3 回顾 - ANN-Benchmarks 测试结果
1588755865 在高维空间中快速进行最近邻搜索已成为一个越来越重要的问题，但是到目前为止，市面上还没有很多客观的比较基准，因此 Erik Bernhardsson 创建了一个 ANN 基准测试工具- ANN-Benchmarks 这星期二的线上问答我们与参加者分享了Milvus ANN-Benchmarks 的性能测试结果，并展开与之相关的讨论。想深入了解测试内容与结果，我们建议观看以下当天活动的录屏，也欢迎到我们ANN-Benchmarks 的 GitHub Repo 一探究竟：https://github.com/milvus-io/ann-benchmarks Milvus：在 ANN-benchmarks 当中的话，刚才也提到了是有建索引的指标的，但是它这个 ANN-Benchmark 都是限定在 CPU 的场景，那它其实比较可能会有点不是特别全面，因为Milvus
95210发布于 2020-05-06
来自专栏计算机视觉工坊
Papers with Code 2020 全年回顾（顶流论文+顶流代码+Benchmarks）
PyTorch — https://github.com/pytorch/fairseq Gluon CV — DMLC — https://github.com/dmlc/gluon-cv 2020顶流Benchmarks
64310发布于 2021-01-12
AI驱动场景感知黑盒漏洞挖掘：腾讯云XBOW平台赋能高效渗透测试
部署XBOW解决方案腾讯云推出XBOW应用安全平台，以“AI驱动+场景感知”为核心，提供下一代黑盒渗透方案：架构设计：采用分布式Agent架构，任务管理与执行解耦，支持多平台多节点Agent统一调度量化应用效果 XBOW平台在渗透测试中展现显著效能，关键业务指标基于腾讯云安全众测及挑战赛实践：资产发现：单目标URL初始探索发现24个新页面，某次任务扩展至发现70个页面（来源：XBOW平台页面探索记录 file=xbow-flag.txt），利用CVE-2021-42013执行命令获取/etc/passwd内容（uid=0(root) gid=0(wheel)）（来源：XBOW平台漏洞检测日志）。案例2：XBOW平台LFI漏洞实战检测目标：XBOW应用安全平台首页（http://10.2.35.0:31002/index.php，服务器：Apache/2.4.54 (Debian)，PHP/7.4.33 过程：通过“页面探索”发现private.php页面，其file参数存在LFI漏洞；利用载荷/xbow-flag.txt读取敏感文件，成功获取Flag（来源：XBOW平台漏洞检测报告）。
22720编辑于 2026-04-06
AI驱动黑盒漏洞挖掘：腾讯云XBOW平台精准检测实践
部署AI驱动方案：XBOW平台与场景感知架构药：腾讯云推出AI驱动安全未来方案，以XBOW应用安全平台为核心，整合分布式Agent架构、场景感知黑盒挖掘、工具调用优化三大能力：分布式Agent架构客户实践案例：XBOW平台漏洞检测实证托某客户基于XBOW平台开展智能渗透测试，典型案例包括： LFI漏洞检测与利用：在XBOW首页（http://10.2.35.0:31002/index.php file=xbow-flag.txt，成功读取系统敏感文件xbow-flag.txt内容，验证漏洞可利用性（据“发现漏洞”记录）。评估体系：基于AutoPenBench（33题）、XBOW（104题）、MMLU计算机安全（116题）等专有基准，结合CTF夺旗结果评判自动化完成度（据“评估标准”说明）。数据来源：腾讯云安全众测实践、XBOW平台测试记录、CTF智能渗透挑战赛（Tencent Cloud Hackathon）解题数据。
21110编辑于 2026-04-05
来自专栏AI算法与图像处理
Papers with Code 2020 全年回顾（顶流论文+顶流代码+Benchmarks）
PyTorch — https://github.com/pytorch/fairseq Gluon CV — DMLC — https://github.com/dmlc/gluon-cv 2020顶流Benchmarks
70220发布于 2021-01-06
腾讯云AI驱动场景感知黑盒漏洞挖掘方案：从盲打到精打的效率跃迁
第四章 XBOW平台LFI漏洞检测实战案例客户案例：XBOW应用安全平台（AI驱动自主渗透测试平台）漏洞检测目标环境：XBOW首页（http://10.2.35.0:31002/index.php ），服务器信息：Apache/2.4.54 (Debian)、PHP/7.4.33（材料：“aa643ae7-8fd6-4cfb-8e46-1a85c5baf535: XBOW首页页面显示服务器信息: 漏洞发现：通过页面探索发现24个新页面，检测到本地文件包含（LFI）漏洞（材料：“发现漏洞在页面XBOW首页发现1个漏洞本地文件包含”）。 file=xbow-flag.txt，成功读取flag文件（材料：“成功利用的载荷: -xbow-flag.txt成功读取到flag文件内容”）；进一步利用Apache HTTP Server 2.4.50
19410编辑于 2026-04-06
来自专栏Elastic Stack专栏
如何理解Elasticsearch Benchmarks：深入解读性能测试背后的秘密
本文旨在深入浅出地解释Elasticsearch Benchmarks的核心概念，帮助你理解这些测试结果背后的含义，从而更好地应用于实际工作中。 Elasticsearch Benchmarks概述什么是Elasticsearch Benchmarks？为什么需要Elasticsearch Benchmarks？机型规格问题：Elasticsearch Benchmarks中使用的服务器硬件配置是怎样的？在Elasticsearch Benchmarks中，主要测试环境使用的是Intel i7-7700 CPU，这是一款4核8线程的处理器。
59221编辑于 2025-05-15
来自专栏数据小冰
Go语言中常见100问题-#89 Writing inaccurate benchmarks
我们不要猜测程序性能，在对代码进行优化的时候，可能会有很多因素发挥作用，所以需要综合考虑，进行测试验证准没错。然而，编写benchmark并不是一件简单的事情，很容易因编写错误的benchmark导致做出不正确优化。本章节将列举一系列非正确编写benchmark问题点。
52440编辑于 2023-08-17
来自专栏ADAS性能优化
Android 11在google的 Pixel 机器上 Benchmarks 测试大幅下降
当Google发布其流行的Android操作系统的新版本时，我们希望看到典型的跨代特性和安全性增强功能，从而使体验更加强大和强大。另外，如果幸运的话，我们甚至可以期望会不时看到一些性能提升，因为Google的移动操作系统已经过优化，可以充分利用功能越来越强大的移动平台。
1K10编辑于 2022-05-13
来自专栏不二小段
来学学大模型最新「合金特工」骚操作，能力比肩多智能体，AI 黑客成功率飙升
让我们一起学习一下 XBOW 的骚操作。缘起：AI 自主黑客的困境要理解「模型合金」的精妙之处，首先要了解它诞生的背景。 XBOW 主营业务的是自主渗透测试。 XBOW 的 AI 负责人 Albert Ziegler 指出，这类任务的特殊之处在于，它不是一个「稳步前进」就能解决的问题。为了评估和迭代他们的 Agent，XBOW 建立了一套 CTF 风格的基准测试集。对于 XBOW 这种需要快速迭代、不断试错的搜索任务来说，效率太低。 2. vs. XBOW 认为，用这些额外的成本，他们宁愿多启动几个独立的 Agent 去碰运气。 3. vs.
8410编辑于 2026-04-09
场景感知AI渗透方案将漏洞误报率降低90%，实现业务逻辑深度检测
其中LFI漏洞检测成功率达100%，通过路径遍历成功读取系统文件（包括xbow-flag.txt等目标文件）。整体漏洞检出效率较传统工具提升3倍，误报率从60%降至低于6%。 XBOW平台验证实际攻防效果在XBOW应用安全平台测试中，系统通过业务场景分析发现关键漏洞链：文件上传→LFI→SSTI的串联利用路径。数据来源：腾讯云黑盲松渗透挑战赛实测数据（2025）、XBOW平台测试报告、国家护网行动实战记录胡宇睿（西安交通大学网络空间安全学院博士生）主导开发，研究领域涵盖开源漏洞治理、AI赋能安全及高级威胁狩猎
18010编辑于 2026-04-04
多智能体协同驱动的自主进化渗透测试系统效能解析
团队成员包括：王一航（清华大学博士生）王楚涵（东南大学副研究员、清华大学博士）王恩泽（博士）汪琦（清华大学博士生）夏天（博士生）杨晶城（清华大学博士生）在实际应用中，团队针对 XBOW Validation Benchmarks 数据集（包含数十种漏洞类型的104个环境，重点覆盖 OWASP TOP 10 中的注入型与访问控制漏洞）进行了全面评测，并修复了上游官方仓库中的多个遗留问题。
20720编辑于 2026-04-04

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

多智能体协同自主进化渗透测试系统：基于XBOW Benchmarks的量化评估与实践

多智能体协同自主进化渗透测试系统：提升漏洞挖掘效率与自优化能力

多智能体协同自主进化渗透系统：基于XBOW基准的量化评估与实践

Misunderstood Benchmarks Are Hurting The Industry and Consumers

【PaperReading】Tools and Benchmarks for Automated Log Parsing

多智能体协同渗透测试系统将漏洞挖掘成功率提升至58.2%

遵循CIS Docker Benchmarks规范的开源巡检脚本(内附CIS Docker Benchmarks PDF下载)

Cluster Setup - CIS Benchmarks（集群设置-CIS基线）

Chat with Milvus #3 回顾 - ANN-Benchmarks 测试结果

Papers with Code 2020 全年回顾（顶流论文+顶流代码+Benchmarks）

AI驱动场景感知黑盒漏洞挖掘：腾讯云XBOW平台赋能高效渗透测试

AI驱动黑盒漏洞挖掘：腾讯云XBOW平台精准检测实践

Papers with Code 2020 全年回顾（顶流论文+顶流代码+Benchmarks）

腾讯云AI驱动场景感知黑盒漏洞挖掘方案：从盲打到精打的效率跃迁

如何理解Elasticsearch Benchmarks：深入解读性能测试背后的秘密

Go语言中常见100问题-#89 Writing inaccurate benchmarks

Android 11在google的 Pixel 机器上 Benchmarks 测试大幅下降

来学学大模型最新「合金特工」骚操作，能力比肩多智能体，AI 黑客成功率飙升

场景感知AI渗透方案将漏洞误报率降低90%，实现业务逻辑深度检测

多智能体协同驱动的自主进化渗透测试系统效能解析

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

多智能体协同自主进化渗透测试系统：基于XBOW Benchmarks的量化评估与实践

多智能体协同自主进化渗透测试系统：提升漏洞挖掘效率与自优化能力

多智能体协同自主进化渗透系统：基于XBOW基准的量化评估与实践

Misunderstood Benchmarks Are Hurting The Industry and Consumers

【PaperReading】Tools and Benchmarks for Automated Log Parsing

多智能体协同渗透测试系统将漏洞挖掘成功率提升至58.2%

遵循CIS Docker Benchmarks规范的开源巡检脚本(内附CIS Docker Benchmarks PDF下载)

Cluster Setup - CIS Benchmarks（集群设置-CIS基线）

Chat with Milvus #3 回顾 - ANN-Benchmarks 测试结果

Papers with Code 2020 全年回顾（顶流论文+顶流代码+Benchmarks）

AI驱动场景感知黑盒漏洞挖掘：腾讯云XBOW平台赋能高效渗透测试

AI驱动黑盒漏洞挖掘：腾讯云XBOW平台精准检测实践

Papers with Code 2020 全年回顾（顶流论文+顶流代码+Benchmarks）

腾讯云AI驱动场景感知黑盒漏洞挖掘方案：从盲打到精打的效率跃迁

如何理解Elasticsearch Benchmarks：深入解读性能测试背后的秘密

Go语言中常见100问题-#89 Writing inaccurate benchmarks

Android 11在google的 Pixel 机器上 Benchmarks 测试 大幅下降

来学学大模型最新「合金特工」骚操作，能力比肩多智能体，AI 黑客成功率飙升

场景感知AI渗透方案将漏洞误报率降低90%，实现业务逻辑深度检测

多智能体协同驱动的自主进化渗透测试系统效能解析

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

Android 11在google的 Pixel 机器上 Benchmarks 测试大幅下降